Source | # of sentences | Average logarithmic rank |
---|---|---|
http://sr.wikipedia.org/wiki/Еди_Меркс | 14 | 5.45 |
http://sr.wikipedia.org/wiki/Љуби_ближњег_свог | 14 | 5.50 |
http://sr.wikipedia.org/wiki/Мик_Шумахер | 12 | 5.59 |
http://sr.wikipedia.org/wiki/Бил_Шенкли | 13 | 5.60 |
http://sr.wikipedia.org/wiki/Деир_ел_Медина | 11 | 5.60 |
http://sr.wikipedia.org/wiki/Винченцо_Нибали | 12 | 5.61 |
http://sr.wikipedia.org/wiki/Рајдер_Хеседал | 19 | 5.61 |
http://sr.wikipedia.org/wiki/Кевин_и_Кел | 11 | 5.64 |
http://sr.wikipedia.org/wiki/Синајска_и_палестинска_кампања | 11 | 5.66 |
http://sr.wikipedia.org/wiki/ОШ_„Љубиша_Урошевић”_Рибаре | 12 | 5.67 |
http://sr.wikipedia.org/wiki/Шон_Кели | 12 | 5.67 |
http://sr.wikipedia.org/wiki/Карен_Бликсен | 11 | 5.68 |
http://sr.wikipedia.org/wiki/Марк_Кевендиш | 20 | 5.68 |
http://sr.wikipedia.org/wiki/Владе_Дивац | 12 | 5.69 |
http://sr.wikipedia.org/wiki/Нинџаго_(ТВ_серија) | 13 | 5.71 |
http://sr.wikipedia.org/wiki/Ана_Фарис | 11 | 5.72 |
http://sr.wikipedia.org/wiki/Погрешно_скретање | 12 | 5.72 |
http://sr.wikipedia.org/wiki/Ширли_Џоунс | 11 | 5.72 |
http://sr.wikipedia.org/wiki/Списак_ликова_у_серији_Чари | 52 | 5.73 |
http://sr.wikipedia.org/wiki/Фреди_Мартенс | 11 | 5.73 |
http://sr.wikipedia.org/wiki/Rome:_Total_War | 18 | 5.74 |
http://sr.wikipedia.org/wiki/Битка_код_Азенкура | 15 | 5.74 |
http://sr.wikipedia.org/wiki/Винстон_Черчил | 14 | 5.74 |
http://sr.wikipedia.org/wiki/Жак_Анкетил | 14 | 5.74 |
http://sr.wikipedia.org/wiki/Мерил_Стрип | 13 | 5.74 |
http://sr.wikipedia.org/wiki/Стивен_Роуч | 15 | 5.74 |
http://sr.wikipedia.org/wiki/Мира_Бањац | 17 | 5.75 |
http://sr.wikipedia.org/wiki/Проблем_зла | 19 | 5.75 |
http://sr.wikipedia.org/wiki/Гаел_Монфис | 17 | 5.76 |
http://sr.wikipedia.org/wiki/Александар_Винокуров | 16 | 5.77 |
Source | # of sentences | Average logarithmic rank |
---|---|---|
http://sr.wikipedia.org/wiki/Ференц_Калмар | 26 | 8.83 |
http://sr.wikipedia.org/wiki/Хексаграм | 11 | 8.59 |
http://sr.wikipedia.org/wiki/Епархија_далматинска | 12 | 8.57 |
http://sr.wikipedia.org/wiki/Драган_Бошковић | 15 | 8.37 |
http://sr.wikipedia.org/wiki/Ричард_III_(драма) | 40 | 8.26 |
http://sr.wikipedia.org/wiki/Радош_Љушић | 34 | 8.17 |
http://sr.wikipedia.org/wiki/Љиљана_Пешикан_Љуштановић | 13 | 8.12 |
http://sr.wikipedia.org/wiki/Белоруси | 11 | 8.10 |
http://sr.wikipedia.org/wiki/Звучник | 12 | 7.94 |
http://sr.wikipedia.org/wiki/Народно_позориште_Ужице | 22 | 7.92 |
http://sr.wikipedia.org/wiki/Кистање | 13 | 7.86 |
http://sr.wikipedia.org/wiki/Scandal_(јапанска_музичка_група) | 13 | 7.82 |
http://sr.wikipedia.org/wiki/КТМ | 14 | 7.78 |
http://sr.wikipedia.org/wiki/Џитер | 21 | 7.77 |
http://sr.wikipedia.org/wiki/Дијалектички_материјализам | 12 | 7.77 |
http://sr.wikipedia.org/wiki/Нова_(хрватски_ТВ_канал) | 18 | 7.77 |
http://sr.wikipedia.org/wiki/Повреде_пениса | 13 | 7.77 |
http://sr.wikipedia.org/wiki/Понтификални_оријентални_институт | 12 | 7.76 |
http://sr.wikipedia.org/wiki/Програмабилна_логика_поља | 11 | 7.74 |
http://sr.wikipedia.org/wiki/Радован_Сремац | 11 | 7.71 |
http://sr.wikipedia.org/wiki/Сава_Секулић | 23 | 7.71 |
http://sr.wikipedia.org/wiki/Оршава | 13 | 7.66 |
http://sr.wikipedia.org/wiki/Љубинко_Раденковић | 15 | 7.65 |
http://sr.wikipedia.org/wiki/Оксидативни_стрес | 11 | 7.65 |
http://sr.wikipedia.org/wiki/Протокол_разапињућег_стабла | 18 | 7.64 |
http://sr.wikipedia.org/wiki/Осипне_грознице | 12 | 7.60 |
http://sr.wikipedia.org/wiki/Трауматска_повреда_мозга | 13 | 7.60 |
http://sr.wikipedia.org/wiki/Руковети | 14 | 7.59 |
http://sr.wikipedia.org/wiki/Ровчани | 12 | 7.58 |
http://sr.wikipedia.org/wiki/Владимир_Коларић_(писац) | 16 | 7.57 |
In this subsection we replace average word length by average logarithmic word rank. The logarithm of the word rank is taken because we want to punish words of high ranks only moderately.
First table:
select source, count(distinct i_s.s_id) as cnt_s, round(avg(log(w.w_id-100)),2) as av from sources so, inv_so i_s, inv_w i, words w where so.so_id=i_s.so_id and i_s.s_id=i.s_id and i.w_id=w.w_id and w.w_id>100 group by source having cnt_s>10 order by av LIMIT 30;
6.4.2.1 Average word length for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words